🦊Wan2.1 画像生成
🏠 | 🦊雑に学ぶComfyUI
👈 | 🦊Wan2.1 VACE
👉 |
Wan2.1 画像生成
1フレームで動画生成する!
だけですが、もともと画像生成も機能に組み込まれているので、単なる動画生成AIの1フレーム生成よりもかなり性能が良い(らしい)です
ソース失念したものの、確か論文だったかに学習自体が「1フレームの画像を生成できるように学習→動画を生成できるように学習」としているようです。(おそらくHunyuanVideoなども似たような学習方法を取っていると思われる)morisoba65536.icon
更にimage2videoはtext2videoから追加学習をしているらしい?
https://claude.ai/public/artifacts/39c2edb7-837f-4a1b-a050-2b2bac2fdfb5Wan2.1:動画生成モデルがテキスト画像生成で高性能を発揮する理由 by Claude.icon
静止画と動画両方で学習されているのと、VAEの設計も良いのかな?nomadoor.icon
最適なパラメータがわからないので暫定nomadoor.icon
https://www.reddit.com/r/StableDiffusion/comments/1m0u7p2/ive_made_some_sampler_comparisons_wan_21_image/I’ve made some sampler comparisons. (Wan 2.1 image generation)
text2image
https://gyazo.com/06f4d5ba628d9fbcd54782642fce3ff2
Wan2.1_14B_text2image.json
🟪text2video(14B)モデル
🟨text2ivideoのときと違い大きな解像度を使ったほうが良いらしい
できればフルHD(1920×1080)、VRAMが少ない場合はHD(1280×720)
🟩サンプラーによる違いが大きい
Euler + betaが現状安定?
text2image (Self Forcing + NAG)
https://gyazo.com/bb87f4b069d4330fae1be19b027f57d4
Wan2.1_14B_text2image_Self-Forcing_NAG.json
🟪Self Forcing LoRAを追加
🟩KSamplerWithNAGノードに変更
サンプラーをLCMにしないと動かないと思ってたけど、画像生成だとEuler + Betaでも動くnomadoor.icon
LCMより当然品質が良い
こちらSelf Forcing ではgradient_estimation or unipc サンプラー/ betaスケジューラーあたりでもおそらくうまくいくかとmorisoba65536.icon
text2image + LoRA適用(Self Forcing + NAG)
https://gyazo.com/96d9a07eb2cfda85b9d6217afbc1e426
Wan2.1_14B_text2image_LoRA_Self-Forcing_NAG.json
🟥https://civitai.com/models/1773251/wan21-classic-90s-film-aesthetic-the-crow-styleWAN2.1 Classic 90s Film Aesthetic (The Crow) STYLE
image2image (Self Forcing + NAG)
https://gyazo.com/a3d1ddc1abaffca510bc7779d91a4f11
Wan2.1_14B_image2image_Self-Forcing_NAG.json
🟪text2videoモデル
🟩denoiseの値を変更
VACE_depth (Self Forcing + NAG)
https://gyazo.com/13681d014239735b7764e8f4e08c8302
Wan2.1_14B_VACE_depth_Self-Forcing_NAG.json
🟥VACE
DepthAnything v2で入力画像の深度マップを作成
画像と同じ大きさのマスクを作成し入力する
VACE_inpainting (Self Forcing + NAG)
https://gyazo.com/4f3ea9d93a7fec96cdcf81f8b6b4b13f
Wan2.1_14B_VACE_inpainting_Self-Forcing_NAG.json
🟥VACEでinpaintingするときは、マスク部分を灰色(color: 8355711)で埋める必要がある
VACE_Reference (Self Forcing + NAG)
https://gyazo.com/2381235f46a83151f3b356a445091018
Wan2.1_14B_VACE_inpainting_Reference_Self-Forcing_NAG.json
Referenceを使うのでそもそも余剰フレームが生成されるが、なおかつ5フレーム余分に生成しないと綺麗な画像にならない
🟥そのために、画像とマスクを5枚に複製
5フレーム生成しておいて画像生成と言えるかは(´ε`;)ウーン…nomadoor.icon